数据驱动的模拟器承诺高数据效率进行驾驶策略学习。当用于建模相互作用时,这种数据效率变为瓶颈:小型基础数据集通常缺乏用于学习交互式驾驶的有趣和具有挑战性的边缘案例。我们通过提出使用绘制的ADO车辆学习强大的驾驶策略的仿真方法来解决这一挑战。因此,我们的方法可用于学习涉及多代理交互的策略,并允许通过最先进的策略学习方法进行培训。我们评估了驾驶中学习标准交互情景的方法。在广泛的实验中,我们的工作表明,由此产生的政策可以直接转移到全规模的自治车辆,而无需使用任何传统的SIM-to-Real传输技术,例如域随机化。
translated by 谷歌翻译
仿真有可能改变在安全关键方案中部署的移动代理的强大算法的开发。然而,对现有模拟发动机的差的光敏性和缺乏不同的传感器方式保持关键障碍朝来实现这种潜力。在这里,我们呈现Vista,一个开源,数据驱动模拟器,用于为自动车辆集成多种类型的传感器。使用高保真度,实际数据集,Vista表示和模拟RGB摄像机,3D LIDAR和基于事件的相机,可以快速生成模拟中的新颖观点,从而富集可用于与难以实现的拐角案例的政策学习的数据在物理世界中捕获。使用Vista,我们展示了在每个传感器类型上培训和测试对控制策略的能力,并通过在全尺度自主车辆上进行展示这种方法的功率。在Vista中学到的政策展示了SIM-TEAR-REAL转移,而不是改进和更高的鲁棒性,而不是完全在现实世界数据上培训的鲁棒性。
translated by 谷歌翻译
连续控制的强化学习(RL)通常采用其支持涵盖整个动作空间的分布。在这项工作中,我们调查了培训的代理经常更喜欢在该空间的界限中普遍采取行动的俗称已知的现象。我们在最佳控制中汲取理论联系,以发出Bang-Bang行为的出现,并在各种最近的RL算法中提供广泛的实证评估。我们通过伯努利分布替换正常高斯,该分布仅考虑沿着每个动作维度的极端 - Bang-Bang控制器。令人惊讶的是,这在几种连续控制基准测试中实现了最先进的性能 - 与机器人硬件相比,能量和维护成本影响控制器选择。由于勘探,学习和最终解决方案纠缠在RL中,我们提供了额外的模仿学习实验,以减少探索对我们分析的影响。最后,我们表明我们的观察结果概括了旨在模拟现实世界挑战和评估因素来减轻Bang-Bang解决方案的因素的环境。我们的调查结果强调了对基准测试连续控制算法的挑战,特别是在潜在的现实世界应用中。
translated by 谷歌翻译
通过互动学习复杂的机器人行为需要结构化探索。规划应瞄准与优化长期绩效的潜力的相互作用,同时只减少有利于这一目标的不确定性。本文提出了潜在的乐观价值探索(爱),这一战略在面对不确定的长期奖励面前通过乐观探索能够深入探索。我们将潜在的世界模型与价值函数估计相结合以预测无限地平线返回并通过合并恢复相关的不确定性。然后,该政策培训了上束缚(UCB)目标,以确定和选择最有希望改善长期绩效的交互。我们在连续动作空间中应用了视觉机器人控制任务,并且与最先进的和其他探索目标相比,平均提高了样品效率的平均提高了20%以上。在稀疏和难以探索环境中,我们实现了超过30%的平均改善。
translated by 谷歌翻译
纵向脑磁共振成像(MRI)含有病理扫描的登记是由于组织外观变化而挑战,仍然是未解决的问题。本文介绍了第一脑肿瘤序列登记(Brats-Reg)挑战,重点是估计诊断患有脑弥漫性胶质瘤的同一患者的术前和后续扫描之间的对应关系。 Brats-Reg挑战打算建立可变形登记算法的公共基准环境。关联的数据集包括根据公共解剖模板,为每个扫描的大小和分辨率策划的DE识别的多机构多参数MRI(MPMRI)数据。临床专家在扫描内产生了广泛的标志标记点,描述了跨时域的不同解剖位置。培训数据以及这些地面真相注释将被释放给参与者来设计和开发他们的注册算法,而组织者将扣留验证和测试数据的注释,并用于评估参与者的集装箱化算法。每个所提交的算法都将使用几个度量来定量评估,例如中位绝对误差(MAE),鲁棒性和雅可比的决定因素。
translated by 谷歌翻译